data2vec論文 1.Introduction
異なるモダリティについて同一の学習プロセスがdata2vecの新規性
これを説明するためのIntroductionという理解
第1段落
自己教師あり学習は、NLP・発話処理・コンピュータビジョンで重要な発展を導いてきた
BERTも自己教師あり学習らしい
マスクを使った埋め込みの学習をNLP以外にも適用しているという印象
第2段落
自己教師ありのアルゴリズムの研究は、個々のモダリティに関心を向けてきた
結果として固有の設計や学習バイアスが生じている
例が続く
第3段落
学習バイアスはたしかに有用だが、それらを他もモダリティに一般化できるのかはたびたびあいまい
人間は言語とビジュアルワードとで同一の学習プロセスを使っている可能性が高い
(data2vecのモチベーションは人間のように複数モダリティを扱えるのではというところにありそう)
生物学で学習について主要な仮説で暗示されている
第4段落:data2vec導入
(Abstractとも似ているのでスキップ)
第5段落
私たちのメソッドは、マスク予測と目的変数の潜在表現の学習を組み合わせるもの
複数のネットワークプレイヤーを目的変数として使い、後者を一般化
このアプローチが複数のモダリティに渡って機能することを示す
既成のTransformerネットワークを教師モードでも生徒モードでも訓練する
まず完全な入力データの表現を構築する(教師モード)
これが学習タスクの目的変数となる
次にマスクされたバージョンの入力例を、完全なデータの表現を予測するようにエンコードする(生徒モード)
教師モードの重みは生徒モードの重みの指数減衰平均(? exponentially decaying average)とする
モダリティ固有の特徴量エンコーダとマスク戦略を文献から用いる
ここも一般化した手法の論文があるらしい
第6段落:targetsについて
私たちのメソッドは学習器自身の潜在ネットワーク表現に取り組むため、モダリティ固有の多くの設計の単純化とみなせる
私たちの目的変数の表現は連続(continuous)で文脈の情報を持つ(contextualized)
self-attention
第7段落:実験で用いたベンチマークについて
NLPではRoBERTaをベースラインとし、GLUEベンチマークを用いた